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k #1, EN S REE? ROE K F" 


(1. 云南 大 学 地 球 科学 学 院 ,云南 昆明 650500, PE; 2. 云南 大 学 国际 河流 与 生态 安全 研究 院 , 云 南 昆明 650500, P EL) 


摘 要 : 


[目的 与 意义 ] 梯田 作为 农业 生产 的 关键 要 素 之 一 ， 其 国 d 
理 至 关 重 要 。 为 解决 复杂 的 地 形 条 件 、 种 植 环境 导致 传统 遥感 数据 和 监测 方法 难以 开展 梯田 自动 化 提取 问题 ， 控 


积 估算 对 于 农业 政策 制定 、 土 地 规划 和 资源 管 


索 一 种 利用 深度 学 习 技术 在 高 分 辩 率 和 遥感 影像 中 精准 提取 梯田 面积 的 方法 。[ 方 法 ] 以 休 耕 期 梯田 高 分 六 号 影像 构 


建 语义 分 割 数据 集 ， 同 时 提出 
为 了 同时 兼顾 局 部 细节 和 全 局 语 境 ， 使 


种 改进 的 DeepLab v3+ 模 型 。 该 模型 使 用 轻 量 级 网 络 MobileNet v2 作为 骨干 网 络 , 
多 尺度 特征 融合 (Multi-scale Feature Fusion module, MSFF) 模块 代替 空 


洞 空 间 金字 塔 池 化 (Atrous Spatial Pyramid Pooling, ASPP) 模块 ， 利 用 扩张 率 依次 增 大 的 空洞 卷 积 级 联 模 式 改 善信 


息 丢 失 的 问题 。 


此 外 ， 对 浅 层 特征 和 深层 特征 使 用 坐标 注意 力 机 制 以 加 强 网 络 对 于 目标 的 学 习 。[ 结 果 与 讨论 ] 


利用 红 、 绿 和 近 红 外 波段 组 合 方式 在 梯田 提取 的 精度 和 效果 上 表现 最 佳 。 相 比 于 原始 DeepLab v3+ 网 络 ， 精 确 率 、 
召回 率 、 忆 评分 和 交 并 比 指标 分 别提 升 4.62% . 2.61%, 3.81% 和 2.81%。 此 外 ， 与 UNet 和 原始 DeepLab v3+ 相 比 ， 
改进 的 DeepLab v3+ 在 参数 量 上 和 浮 点 运算 数 有 着 更 为 优越 的 性 能 ， 其 参数 量 仅 为 UNet 的 28.6% 和 原始 DeepLab 
v3+ 的 19.5%， 同 时 浮 点 运算 数 仅 为 UNet 和 DeepLab v3+ 的 115。 这 不 仅 提 高 了 计算 效率 ， 也 使 得 改进 后 的 模型 更 适 
用 于 资源 有 限 或 计算 能 力 较 低 的 环境 中 。[ 结 论 ] 深度 学 习 在 高 分 辨 率 遥 感 影像 梯田 识别 中 具有 较 高 的 精度 ， 有 利 


于 为 梯田 精细 化 监测 和 管理 提供 参考 依据 。 
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0 5| 言 

梯田 作为 农业 生产 的 关键 要 素 之 一 ， 其 面积 估 
算 对 于 农业 政策 制定 、 土 地 规划 和 资源 管理 至 关 重 
要 。 梯 田 监 测 是 水 土 保持 动态 监测 和 评价 工作 中 的 
重要 环节 ， 确 定 梯田 规模 和 空间 分 布 可 为 梯田 的 管 
理 和 维护 提供 依据 ""。 卫 星 遥 感 技术 支持 对 地 表 特 
征 和 地 理 现象 进行 全 禾 关 、 全 天 候 监 测 中 ， 被 广泛 
应 用 于 城市 规划 、 目 标识 别 、 土 地 覆盖 等 领域 5 ， 
为 梯田 提取 提供 了 可 靠 的 技术 支持 。 

梯田 遥感 提取 的 传统 方法 主要 利用 其 独特 的 纹 
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理 、 光 谱 和 几何 等 特征 进行 分 类 ， 主 要 技术 包括 纹 
理 频谱 “、 面 向 对 象 技术 “” 和 浅 层 机 器 学 习 “"”。 
然而 ， 随 着 影像 分 辨 率 的 不 断 提 高 ， 不 同 地 物 属性 
的 边界 、 空 间 布 局 等 语义 信息 越 来 越 丰富 ， 随 之 增 
加 了 图 像 信息 的 复杂 性 UU. mS BERGE p A 
的 地 形 环境 及 “ 同 谱 异 物 ” 的 现象 ， 使 得 传统 方法 
在 梯田 、 耕 地 和 裸 地 之 间 的 辨别 能 力 受 到 挑 成 ， 从 
而 产生 了 地 物 混 合 ”和 椒盐 现象 ”等 解 译 上 的 问 
题 。 此 外 ， 仅 仅 关 注 浅 层 特征 的 传统 方法 很 难 有 效 
利用 高 分 辩 率 遥感 影像 中 的 细节 特征 ， 提 取 的 梯田 
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较为 破碎 、 分 散 ， 难 以 满足 智慧 农业 对 精度 和 自动 
化 的 要 求 1, 

近年 来 ,深度 学 习 在 语义 分 割 领 域 表 现 突 
出 中 9， 其 自动 学 习 深 层 特征 的 方式 为 高 分 状 率 梯 
田 影 像 精 准 提 取 提 供 了 可 行 的 方案 。 以 卷 积 神经 网 
络 (Convolutional Neural Network, CNN) 为 代表 的 
语义 分 割 模型 ,凭借 其 和 卓越 的 图 像 分 析 能 力 , 已 成 
为 梯田 提取 的 首选 方法  ”…。 例 如 ，Wang 等 ”通过 
改进 UNet 深 度 学 习 模 型 实现 了 梯田 的 像素 级 智能 
提取 。Yu 等 ' 利用 深度 迁移 学 习 的 策略 帮助 了 小 
样本 数据 集 下 梯田 提取 精度 的 提升 。 刘 东 杰 UU 联 
合 波谱 和 地 形 特征 的 方法 ， 加 强 了 深度 学 习 模 型 梯 
田 识 别 的 鲁 棱 性 。Zhao 等 "在 梯田 提取 任务 中 采 
用 EfficientNet v2 骨干 网 络 进行 特征 提取 ， 并 引入 
卷 积 注意 力 机 制 模 块 (Convolutional Block Atten- 
tion Module, CBAM) 对 DeepLab v3+ P] 2& iE 77 pi 
进 ， 成 功 平衡 了 超 高 分 辩 率 无 人 机 图 像 梯 田 提取 的 
精度 和 速度 。 经 典 的 语义 分 割 模型 DeepLab v3+ 通 
过 编码 器 -解码 器 结构 、 深 度 可 分 卷 积 等 手段 充分 
考虑 了 浅 层 和 深层 语义 信息 ， 提 高 了 分 割 性 能 。 然 
Wi, JE DeepLab v3+ 模 型 结构 复杂 、 参 数量 大 等 
问题 ， 导 致 在 实际 训练 和 推理 过 程 中 需要 更 多 的 计 
算 资 源 。 

本 研究 通过 对 DeepLab v3+ 模 型 的 改进 ， 提 出 
了 一 种 轻 量 级 的 遥感 图 像 语义 分 割 方法 。 该 方法 采 
用 轻 量 级 网 络 MobileNet v2 作为 骨干 网 络 ， 减少 了 
模型 参数 的 数量 。 为 了 加 强 多 尺度 特征 提取 ， 避 免 
言 息 丢 失 ， 利 用 多 尺度 特征 融合 模块 替换 原来 的 空 
洞 空 间 金 字 塔 池 化 模块 。 在 此 基础 上 ， 将 坐标 注意 
机 制 同时 运用 于 浅 层 特征 和 深层 特征 ， 以 加 强 网 络 
对 空间 位 置 的 学 习 。 


1 研究 区 与 数据 处 理 


1.1 研究 区 概况 

如 图 1， 研 究 区 元 阳 县 位 于 中 国 云南 省 南部 ， 隶 
属于 云南 省 红河 哈尼 族 苏 族 自治 州 ， 位 于 训 率 山脉 
AZT IA Bm. HBA pe HI 102°27'~103° 13'E, 
22°49'~23°19'N 之 间 ， 面 积 为 2 212.32 kw, £H 
$f&144- £ 9. NEWER, YAO, METZ 
异 明 显 ， 最 低 海拔 164 m， 最 高 海拔 2 939.6 m. JÈ 
阳 县 哈尼 梯田 开垦 历史 已 有 1300 多 年 ,梯田 级 
数 最 多 的 有 3 700 多 级 。 梯 田 单 块 面积 最 大 者 达 
到 1 000 m^, 最 小 者 不 足 1m '“。 其 丰富 的 梯田 形 
态 可 以 代表 中 国 典 型 的 山地 梯田 区 域 ， 满 足 县 域 梯 


田 自 动 提 取 的 研究 需求 。 通 过 精细 地 提取 元 阳 县 梯 
田 信 息 ， 为 该 地 区 的 梯田 水 土 保 持 监测 提供 基础 
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注 : 该 图 基于 自然 资源 部 标准 地 图 服务 网 站 下 载 的 审 图 号 为 云 S 
(2021) 186 号 标准 地 图 制作 , 底 图 无 修改 。 
图 1 元 阳 县 位 置 及 样本 分 布 
Fig.l Location and sample distribution in Yuanyang county 

梯田 的 颜色 、 质 地 和 形态 特征 随 季 节 而 变化 。 
每 年 10 月 至 次 年 4 月 ， 元 阳 县 梯田 进入 休 耕 时 期 。 
在 这 段 时 间 内 ,梯田 被 沟渠 引水 灌 没 ， 以 确保 在 耕 
种 时 期 仍然 有 充足 的 水 量 ,， 呈现 出 典型 的 蓄 水 形态 
梯田 。 
1.2 数据 源 

本 人 研究 使 用 云南 省 高 分 中 心 提供 的 高 分 六 号 
(GF-6) 卫星 影像 数据 作为 数据 源 ， 以 满足 高 空间 
分 辨 紊 的 要 求 。GF-6 卫 星 配 置 2m 全 色 和 8 m Zt 
谱 高 分 辨 率 相 机 ， 拥 有 红 (Red)、 绿 (Green), W 
(Blue) 和 近 红 外 (Near Infrared, NIR) 4 个 波段 。 
数据 使 用 2021 年 3 月 30 日 无 云 的 GF-6 卫 星 影像 数 
据 (信息 为 GF6_PMS_E102.8_N23.2_20210330_L1 
A1120093056)， 可 完全 覆盖 整个 研究 区 。 此 时 研究 
区 内 梯田 正 处 于 休 耕 有 期， 沟渠 引水 灌溉 后 的 梯田 田 
面 平 整 、 植 被 稀 玻 ， 与 其 他 地 物 之 间 光 谱 差 异 大 ， 
便于 梯田 的 遥感 识别 和 提取 。 此 外 ， 应 用 于 海拔 、 
坡度 的 数字 高 程 模 型 (Digital Elevation Model， 
DEM) 从 地 理 空间 数据 云 (https://www.gscloud.cn/ 
search) 平台 获取 ， 其 空间 分 辨 率 为 30 m。 


1.3 数据 集 构建 


大 多 数 公开 遥感 分 割 数据 集 不 包括 梯田 类 别 ， 
因此 本 研究 利用 GF-6 影 像 构建 了 梯田 数据 集 。 构 
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建 GF-6 深 度 学 习 梯 田 分 割 数据 集 的 过 程 包括 4 个 关 
MEPR: 数据 预 处 理 、 样 本 标注 、 样 本 裁剪 ， 以 及 
数据 集 划 分 与 训练 集 增强 ， 如 图 2 所 示 。 首 先 ， 
为 了 满足 多 光谱 数据 的 空间 分 辨 率 和 数据 质量 的 
要 求 ， 实 验 前 执行 了 一 系列 预 处 理 步 又 ,包括 对 
GF-6 卫 星 影 像 的 多 光谱 影像 进行 辐射 定 标 、 大 气 


练 样本 占 整 个 元 阳 县 面积 8.9%。 通 过 ArcGIS 软件 ， 
对 14 个 区 域 的 梯田 进行 目 视 解 译 并 矢量 化 梯田 样 
本 。 然 后 ， 将 矢量 数据 转换 为 栅 格 数据 完成 标签 注 
释 。 由 于 CNN 预测 依赖 上 下 文 信息 特征 ， 因 此 预 
测 分 类 的 准确 性 取决 于 输入 图 像 中 的 各 种 对 象 位 
置 ， 即 输入 图 像 边缘 附近 的 对 象 可 能 会 遗漏 整个 上 


校正 和 正 射 校正 ， 以 及 对 全 色 影 像 进 行 辆 射 定 标 和 
正 射 校正 。 然 后 ， 运 用 NNDiffuse Pan Sharpen- 
ing ”工具 融合 GF-6 影 像 中 8 m 分 辨 率 的 多 光谱 影 
像 与 2 m 分 辩 率 的 全 色 影 像 ， 从 而 获得 2 m 分 辨 率 
的 多 光谱 图 像 。 

梯田 的 状态 因 地 形 特征 而 异 ， 其 中 ， 坡 度 、 海 
拔 和 气候 是 最 显著 的 影响 因素 。 为 保证 训练 样本 中 
梯田 具有 不 同 的 形态 ， 根 据 元 阳 县 地 貌 分 布 特征 ， 
选取 14 个 典型 区 域 作 为 训练 样本 区 域 (图 1)， 训 


下 文 ， 并 可 能 被 错误 分 类 。 为 了 减轻 这 种 影响 ,在 
对 影像 和 标签 裁剪 时 ， 使 用 大 小 为 256 像素 的 滑动 
窗口 ， 每 个 方向 的 步 幅 为 192， 从 而 改变 图 像 中 梯 
田 的 位 置 。 此 外 ， 为 了 增加 样本 的 多 样 性 ， 实 验 对 
训练 集 和 验证 集 进 行 了 数据 增强 ， 包 括 随 机 旋转 
90°, 、180°* 、270° 及 水 平和 垂直 镜像 操作 扩充 训练 
样本 数量 ， 最 终 获 得 训练 集 14 760 张 图 像 、 验 证 
集 3 690 张 图 像 。 


 EBuna 
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图 2 梯田 识别 数据 集 构 建 流程 


Fig.2 The process of constructing the terrace identification dataset 


2 研究 方法 

深度 学 习 技术 可 以 自动 地 从 原始 影像 中 学 习 到 
高 级 的 特征 表示 ， 更 好 地 适应 高 分 辩 率 于 感 数 据 中 
梯田 的 复杂 性 和 多 样 性 。 针 对 梯田 的 特性 ， 本 研究 


输入 到 ASPP '”%。ASPP 模 块 由 4 个 卷 积 层 组 成 ， 扩 
展 因子 分 别 为 1、6、12 和 18， 以 及 一 个 全 局 平均 
池 化 操作 。 在 解码 器 中 ， 采 用 1X1 卷 积 层 对 压缩 
两 次 的 底层 特征 的 通道 数 进行 调整 ， 然 后 将 底层 特 
征 与 上 采样 4 次 的 高 层 特征 映射 进行 拼接 。 革 加 


对 DeepLab v3+ 网 络 进行 了 相关 优化 ， 并 对 二 元 交 
SLIT AE PAAR AC HE DA BE Te AY PE BE 
2.1 改进 的 DeepLab v3+ 


DeepLab v3+ 网 络 自 提出 以 来 ， 由 于 其 出 色 的 
图 像 分 割 能 力 ， 常 被 用 于 高 精度 图 像 分 割 H, E 
编码 需 中 ，DeepLab v3+ 模 型 以 Xception 为 骨干 网 
络 ， 从 Xception 中 提取 浅 层 和 深层 特征 ， 深 层 特征 


后 ， 通 过 3X3 卷 积 对 特征 进行 细 化 。 最 后 ， 通 过 
线性 插值 上 采样 得 到 具有 原始 图 像 分 状 率 的 预测 
图 像 。 

本 研究 以 经 典 的 DeepLab v3+ 网 络 模型 为 基础 ， 
提出 改进 方案 如 图 3 所 示 。 在 编码 器 部 分 ,使 用 轻 
量 级 MobileNet v2 2 取代 Xception 作为 语义 分 制 模 
型 的 骨干 网 络 。 从 MobileNet v2 网 络 中 提取 了 第 4 
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层 和 第 7 层 两 个 浅 层 特征 ， 并 应 用 坐标 注意 力 
(Coordinate Attention, CA) ?* 机 制 增强 下 层 的 语义 
言 息 。 此 外 ,在 原始 DeepLab v3+ 网 络 中 使 用 空洞 
空间 金字 塔 池 化 (Atrous Spatial Pyramid Pooling, 
ASPP) 模块 使 深层 特征 得 到 增强 ,但 扩张 卷 积 的 
离散 采样 容易 忽略 大 扩张 率 情 况 下 连续 点 之 间 的 依 
赖 关 系 ， 容 易 造 成 局 部 信息 的 丢失 并 影响 预测 结 
果 。 为 了 同时 兼顾 局 部 细节 和 全 局 语 境 ， 本 研究 使 


用 MSFF 模 块 代替 ASPP 模 块 ， 利 用 扩张 率 依次 增 
大 的 空洞 卷 积 级 联 模式 改善 信息 丢失 的 问题 。 在 解 
码 需 部 分 ， 将 具有 CA 关注 的 第 7 层 特征 经 过 调整 
后 上 采样 到 与 第 4 层 特征 相同 的 大 小 。 然 后 ， 与 原 
始 模型 一 样 ， 将 深层 特征 经 过 CA 关注 后 与 浅 层 特 
征 连 接 起 来 。 最 后 ， 经 过 3X3 卷 积 和 上 采样 操作 ， 
图 像 恢 复 到 原始 大 小 。 


图 3 改进 后 的 DeepLab V3+ 结 构图 
Fig. 3 Structure of improved DeepLab V3+ 


#1 MobileNet v2 的 主要 参数 
Table 1 The primary parameters of MobileNet V2 


2.1.1. 特征 提取 网 络 
与 原始 的 Xception 相 比 ，MobileNet v2 引 入 基 
于 次 度 可 分 离 卷 积 的 反 向 残 差 模块 和 线性 瓶颈 层 , 
从 而 大 大 减少 模型 参数 的 数量 ， 使 网 络 更 快 地 收 
$& 7. AS ESE MobileNet v2 进行 了 改进 ， 进 一 
步 减少 模型 的 参数 个 数 ， 简 化 了 模型 。 具 体 而 言 ， 
使 用 MobileNet v2 网 络 的 前 8 层 ， 下 采样 因子 设置 
为 3。 同 时 ,将 第 5 层 和 第 7 层 的 步 幅 由 原始 的 2 改 
为 1， 将 第 7 层 的 3X3 普 通 卷 积 蔡 换 为 扩张 率 为 4 
的 空洞 卷 积 。 具 体 的 网 络 结构 如 表 1 所 示 。 
2.1.2 ”坐标 注意 力 模块 

在 卷 积 神经 网 络 中 ，SENet ^" 和 CBAM ^?" 等 
注意 机 制 被 广泛 使 用 ， 但 SENet 注意 机 制 只 关注 通 
道 维度 信息 ， 没 有 考虑 空间 维度 信息 ， 而 CBAM 虽 
然 融合 通道 和 空间 维度 信息 ， 但 无 法 解决 空间 维度 
上 的 远 距 离 依赖 问题 。CA 机 制 是 一 种 轻 量 级 的 注 
意 机 制 ， 同 时 考虑 通道 和 空间 维度 ， 可 以 解决 远程 
依赖 等 问题 。 其 关键 思想 是 将 坐标 信息 作为 输入 的 
一 部 分 ， 人 允许 模型 实现 跨 通道 的 信息 获取 ， 从 而 更 


操作 c 


n s r 
1 = Conv2d 32 1 2 1 
2 32 Bottleneck 16 1 1 1 
3 16 Bottleneck 24 2 2 1 
4 24 Bottleneck 32 3 2 1 
5 32 Bottleneck 64 4 1 1 
6 64 Bottleneck 96 3 1 1 
7 96 Bottleneck 160 3 1 4 
8 160 Bottleneck 320 1 1 1 


注 :; 表 示 输 入 通道 数 ;- 为 输入 数据 的 波段 数 ;c 表 示 输 出 通道 数 ;n 表 
示 瓶颈 重复 的 次 数 ;s 表 示 步 幅 ;r 表 示 扩张 率 。 
准确 地 提取 特征 。 在 梯田 语义 分 割 任 务 中 ，CA 更 
加 注重 图 像 中 每 个 像素 的 位 置 ， 使 模型 更 好 地 理解 
图 像 中 梯田 的 空间 结构 ， 从 而 改善 对 梯田 边界 、 形 
状 和 位 置 的 识别 。 
2.4.8 多 尺度 特征 融合 模块 

MSFF 模 块 通过 使 用 不 同 扩张 率 的 空洞 卷 积 和 
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池 化 操作 来 实现 多 尺度 特征 融合 ， 以 提高 网 络 的 性 
能 。 如 图 3 所 示 ， 该 模块 经 过 4 个 并 行 的 分 文 网 络 
结构 : 第 1 个 分 支 分 别 使 用 扩张 率 为 1、2、3 的 3 
个 空洞 卷 积 来 获取 较 小 尺度 下 的 特征 信息 ; 第 2 个 
分 支 分 别 使 用 扩张 率 为 1、6、12 的 3 个 空洞 卷 积 3 
进一步 扩大 特征 信息 的 尺度 ; 第 3 和 第 4 分 别 使 用 
Average Pooling 和 Max Pooling 来 获取 全 局 信息 和 
局 部 信息 ， 并 进行 上 采样 恢复 输入 图 像 的 大 小 。 最 
后 ,使 用 1X1 卷 积 层 对 融合 后 的 特征 进行 进一步 
融合 和 调整 输出 特征 图 的 数量 。 这 种 在 编码 器 和 解 
码 器 之 间 引 入 多 尺度 特征 融合 模块 有 助 于 提高 网 络 
在 梯田 提取 任务 中 的 性 能 ， 确 保 网 络 能 够 更 好 地 处 
理 多 尺度 的 梯田 地 形 特 征 ， 减 少 信息 损失 。 

与 ASPP 模块 相 比 ，MSEFEF 模块 仅 包含 4 个 分 
文 。 在 模块 中 ， 每 个 分 文 不 再 使 用 单一 的 空洞 卷 
只 ， 而 是 采用 扩张 率 逐 渐 增 大 的 空洞 卷 积 进行 串 
联 。 这 样 的 设计 由 在 减少 参数 的 同时 ， 扩 大 模型 感 
受 野 以 捕捉 不 同 尺 度 的 信息 ， 确 保 每 个 分 支 都 能 
效 地 提取 更 多 的 多 尺度 特征 。 此 外 ， 男 外 两 个 分 支 
分 别 包 含 2X2 的 Average Pooling 层 和 Max Pooling 
层 ， 通 过 并 联 可 以 减缓 信息 的 丢失 ， 并 更 好 地 保留 
原始 特征 网 中 的 多 样 性 信息 。 


2.2 损失 函数 

高 分 辩 率 遥感 图 像 中 不 同类 型 地 物 所 占 比 例 不 
同 。 目 标 地 物 与 背景 的 极端 不 平衡 将 影响 分 割 网 络 
的 性 能 。 因 此 ， 为 了 降低 特征 类 别 比 例 差 异 大 对 模 
型 特征 分 类 精度 的 影响 ， 本 研究 采用 改进 的 二 元 交 
SUR TAFE ARARE b EA] EMT BE EE] AS AE fg P1 [8] R8 o 
计算 如 公式 (1) 所 示 。 

Lyc-W, X(-y)logp (y)-W.(1-y)logE1-p(») 10) 

KH: y 为 二 元 标签 0 或 者 1; p(y) 为 输出 属于 
y 标 签 的 概率 ; W, 和 W, 为 权重 系数 ， 实 验 通 过 计 
算 所 有 训练 样本 中 目标 和 背景 像素 和 占 总 像素 的 比 
值 来 实现 。 
2.3 评价 指标 

精度 评价 是 描述 模型 可 靠 性 的 重要 组 成 部 分 。 
本 人 研究 利用 混淆 和 矩阵 的 方法 计算 模型 精度 ， 通 过 分 
析 梯 田 提 取 结 果 的 真 阳性 (True Positive, TP), & 
阴性 (True Positive, TN)、 假 阳性 (False Negative, 
FP)、 假 阴性 (False Negative, FN) 之 间 的 关系 进 
行 精度 评价 ， 采 用 精确 率 、 召 回 率 、 书 评分 和 IoU 
作为 评价 模型 的 准则 ， 评 价 指 标 公式 如 表 2 所 示 。 


表 2 精度 评价 指标 及 意义 


Table 2 The accuracy evaluation metrics and their Significance 


评价 指标 公式 意义 
精确 率 (Precision ) Precision = as es (2) 衡量 模型 在 预测 正 类 别 时 的 准确 性 
TP EIE T XE 9 
召回 率 (Recall) Recall = SP EN (3) 衡量 模型 识别 所 有 正 类 别 样本 的 能 


环评 分 (Fi-Score) F, -Score=2 X 


Precision X Recall 
Precision + Recall 


) 五 评分 是 精确 率 和 召回 率 的 调和 平均 值 ,综合 考虑 模型 


(4 
的 准确 性 和 召回 能 


Aag "e : idus TP (5) fig te A TOU 0 H E DR Sag Sic Dos Aon Sa [n] L5] 38 788 
AC Jf E (Intersection over Union, IoU) oU = TP FP AEN 程度 
3 结果 与 分 析 8， 初 始 Epoch 设置 为 200， 学 习 率 设置 为 0.003， 
Adam 作为 优化 器 ， 多 步 长 动态 调整 学 习 率 。 为 了 
3.1 实验 设置 防止 过 度 拟 合 ， 当 训练 损失 和 IoU 连续 10 次 没有 改 
为 了 有 效 训练 深度 学 习 模 型 ， 实 验 在 19。  ” 善 时 ,网 络 将 停止 模型 训练 并 保存 最 优 模型 。 


12900k 16 核 24 线 程 CPU， 配 置 64 G 内 存 ， 搭 载 
GV-N3090GAMING 显卡 的 计算 机 上 进行 。 在 软件 
方面 ， 使 用 Windows 11 专业 版 64 位 操作 系统 ，An- 
aconda3 (64 位 ) 进行 环境 配置 ， 在 环境 中 安装 py- 
thon 3.7， 基 于 开源 框架 TensorFlow2.4.0 作为 后 端 
的 深度 学 习 框 架 。 实 验 过 程 中 ，Batch size 设置 为 


3.2 不 同 波段 组 合 对 梯田 提取 的 影响 

已 有 研究 表明 ， 近 红外 波段 对 深度 学 习 模型 
识别 耕地 具有 明显 的 影响 '”。 本 研究 选取 一 个 
5 km X 5 km 的 梯田 集中 区 域 来 探究 不 同 波段 组 合 
下 模型 识别 梯田 的 效果 。 该 区 域 参 考 梯田 面积 》 
976 hm ， 参 考 矢 量 地 块 数量 为 79 块 。 表 3 展示 了 
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在 RGB NirRG il NirRGB 波段 组 合 下 模型 在 测试 
区 域 的 精度 指标 对 比 。 在 RGB 波段 组 合 中 ，Preci- 
sion 取得 最 高 fH Recall 相对 降低 ， 导 致 忆 和 IoU 
最 低 。 在 NirRGB 波段 组 合 中 ， 各 个 指标 具有 较 均 
衡 的 性 能 ， 有 日 Recall 和 IoU 相 较 于 RGB 波段 有 明显 
的 提升 ， 证 明 近 红外 波段 对 梯田 识别 具有 促进 作 
用 。 而 在 NirRG 波 段 组 合 中 ,各 项 指标 都 保持 在 较 
高 水 平 。 其 中 IoU 达到 了 相对 最 高 ， 表 明 模 型 的 预 
测 结 果 和 真实 情况 的 重 琶 较 好 ， 进 一 步 说 明 近 红外 
波段 的 促进 效果 。 从 指标 对 比 中 可 以 看 出 ，NirRG 
波段 组 合 训练 的 模型 整体 表现 最 佳 ，Precision 、Re- 
call, F,-Score 和 IoU 分 别 A 90.11%, 90.2296, 
90.17% Ail 82.10% 。 

为 了 进一步 分 析 波段 组 合 对 梯田 分 类 结果 的 实 
际 影 响 ， 实 验 统计 了 不 同 波段 组 合 下 测试 区 域 的 梯 
田 预 测 地 块 数 和 总 面积 。 从 生成 的 梯田 地 块 数量 可 
以 看 出 ，RGB 波段 组 合生 成 的 数量 最 多 ， 达 到 700 
以 上 ， 而 NirRG 和 NirRGB 波段 组 合 的 地 块 数量 分 
别 为 228 和 326。 总 面积 方面 ，RGB NirRG 和 Nir- 


b.RGB 


3.3 梯田 提取 结果 与 分 析 


利用 本 研究 提出 的 网 络 进行 样本 训练 后 ， 使 用 
最 优 训练 模型 对 整个 元 阳 县 梯田 进行 预测 。 将 预测 
结果 通过 相 邻 图 像 重 县 四 分 之 一 的 方式 拼接 得 到 元 
阳 县 梯田 提取 结果 ， 如 图 5 所 示 。 结 果 显 示 ， 元 阳 
县 中 部 地 区 是 梯田 分 布 的 主要 集中 区 域 ， 这 里 分 布 
EAS EO BE EFO, EEE. MRM 
主 鲁 等 梯田 风景 区 )。 在 南部 和 东部 地 区 ， 同 样 观 
察 到 有 大 面积 梯田 的 分 布 ， 但 相对 中 部 地 区 较为 分 
散 ， 大 都 分 布 于 居民 点 附近 。 沿 着 北部 河谷 地 区 几 
乎 没有 梯田 的 分 布 ， 这 可 能 是 由 于 该 地 区 地 形 较为 
陡峭 ， 不 适合 进行 梯田 农业 。 图 SaB Se 为 元 阳 县 
4 个 典型 梯田 区 域 的 测试 效果 。 在 图 5b 和 图 5c 中 ， 


RI 梯田 集中 区 域 不 同 波段 组 合 的 精度 对 比 
Table 3 The accuracy comparison of different band combina- 


tions in the concentrated terraced area 


M 地 块 ”预测 面 
波段 组 合 Precision/% Recall/% Fi-Score/% IoU/% ， 
数量 BUhm* 


RGB 90.67 86.35 88.46 | 79.31 790 1015 


NirRG 90.11 90.22 90.17 82.10 228 964 


NirRGB 89.89 90.27 90.08 80.96 326 928 


RGB 波段 组 合 的 面积 分 别 为 1015、964 和 928 hm’, 
其 中 NirRG 与 参考 面积 仅 有 12 hm 的 误差 。 

为 了 验证 提取 结果 ， 将 不 同 波段 组 合 的 结果 与 
影像 释 加 显示 的 视觉 效果 展示 在 图 4 中 。 整 体 上 ， 
3 种 波段 组 合 方式 基本 上 都 能 将 梯田 范围 大 致 提取 
出 来 。 然 而 ， 在 局 部 细节 上 ，RGB 组 合 提取 结果 的 
破碎 程度 较 高 ， 左 侧 有 较 大 零碎 的 坡 耕 地 被 误 识别 
为 梯田 。NirRGB 组 合 错误 的 现象 比较 明显 ， 尤 其 
是 靠近 建筑 物 区 域 的 梯田 。 相 比 之 下 ，NirRG 提取 
结果 更 加 完整 ， 对 梯田 和 坡 耕 地 的 提取 结果 相对 更 
为 准确 。 


c. NirRG 
图 4 不 同 疲 段 组 合 下 测试 区 域 梯田 提取 结果 


Fig. 4 Extraction results of terraced fields in test areas under different band combinations 


d. NirRGB 


预测 结果 的 梯田 内 部 存在 一 些 细小 的 噪声 现象 ， 对 
模型 的 判别 准确 性 产生 了 轻微 的 影响 ， 但 模型 对 于 
梯田 内 部 的 植被 具有 较为 准确 的 判断 。 在 图 5d 和 
图 Se 中 观察 到 对 于 坡 耕 地 和 梯田 辨别 具有 一 定 的 准 
确 性 ， 展 示 出 对 于 不 同 地 形 特征 的 敏感 性 。 总 体 而 
言 ， 模 型 在 大 面积 梯田 提取 的 测试 中 表现 出 较 高 准 
确 性 ， 测 试 结果 突显 了 模型 对 于 大 范围 梯田 提取 的 
整体 良好 性 能 ， 同 时 也 提示 了 在 处 理 植 被 复杂 、 地 
形变 化 明显 的 区 域 时 ， 还 有 进一步 提高 模型 精度 的 
空间 。 

为 进一步 分 析 元 阳 县 梯田 的 分 布 情况 ， 依 据 水 
利 部 发 布 的 《土地 侵蚀 分 类 分 级 标准 》(SL190 一 
2007) ”， 将 坡度 划分 为 6 个 等 级 〈 图 6)， 统 计 分 
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注 : 该 图 基于 自然 资源 部 标准 地 图 服务 网 站 下 载 的 审 图 号 为 云 S 
(2021) 186 号 标准 地 图 制作 , 底 图 无 修改 。 
a. 元 阳 县 梯田 识别 结果 


ee 


d. 与 坡 耕 地 混合 区 域 
图 5 元 阳 县 梯田 和 典型 区 域 识 别 结 果 


Fig. 5 Results of identification of terraces and typical areas in 


e. 零碎 梯田 区 域 


Yuanyang county 


析 不 同 坡度 上 梯田 分 布 情况 。 数 据 表明 ， 预 测 结 
中 梯田 的 总 面积 为 15 562.18 hm*， 元 阳 县 境内 有 统 
计 的 哈尼 梯田 面积 约 为 1.3 万 hm ， 加 上 元 阳 县 南部 
零碎 的 非 哈尼 梯田 ， 大 致 符合 实际 的 梯田 面积 。 根 
据 表 4 可 知 ， 大 部 分 的 梯田 分 布 在 坡度 8"~-25" 之 间 
的 区 间 内 ， 占 据 了 总 梯田 面积 的 84.97%。 坡 度 小 于 
5°* 和 大 于 35° 的 面积 只 占 1.65%， 表 明 坡 度 过 高 或 过 
低 的 地 形 条 件 可 能 不 太 适 合 梯田 农业 。 梯 田 的 分 布 
主要 集中 在 中 等 坡度 范围 内 。 

以 500 m 为 海拔 梯度 间隔 划分 6 个 等 级 统计 元 
阳 县 梯田 空间 分 布 变 化 与 海拔 的 关系 CET). dE 
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2: 该 图 基于 自然 资源 部 标准 地 图 服务 网 站 下 载 的 审 图 号 为 云 S 
(2021) 186 号 标准 地 图 制作 , 底 图 无 修改 。 

图 6 元 阳 县 梯田 在 不 同 坡度 的 空间 分 布 

Fig. 6 The spatial distribution of terraced fields in Yuanyang 


county across different slopes 


#4 元 阳 县 不 同 坡度 等 级 下 梯田 的 面积 及 占 比 
Table 4 The area and proportion of terraced fields in Yuanyang 
county at different slope levels 


坡度 /(°) 面积 /hm 占 比 /% 
<5 230.51 1.47 
5~8 632.32 4.05 
8~15 5 430.85 34.82 
15~25 7 820.91 50.15 
25-35 1 453.59 9.32 
>35 28.75 0.18 


表 5 可 知 ， 元 阳 县 境内 ， 梯 田 的 海拔 分 布 差 异 明显 ， 
绝 大 多 数 的 梯田 分 布 在 海拔 为 1 000—2 000 m， 占 据 
总 梯田 面积 的 95.02%。 海 拔 梯度 为 1 000—1 500 m 
的 梯田 面积 最 多 ， 占 总 面积 的 69.57%。 低 于 500 m 
和 高 于 2 000 m 的 海拔 范围 内 ， 几 乎 没有 梯田 存在 。 
这 种 分 布 情况 可 能 受到 地 理 条 件 和 气候 因素 的 影 
响 ， 对 于 地 方 农 业 规划 和 土地 利用 决策 有 重要 
3.4 与 其 他 算法 比较 

为 了 验证 改进 DeepLab v3+ 模 型 对 梯田 提取 的 
有 效 性 ， 在 保证 其 他 训练 参数 不 变 的 情况 下 ， 将 基 
于 MobileNet v2 骨干 网 络 构建 的 改进 轻 量 级 Deep- 
Lab v3+ 模 型 与 UNet、PSPNet 及 原始 DeepLab v3+ 
模型 进行 对 比 。 通 过 表 6 可 知 ， 改 进 后 的 DeepLab 
v3+ 网 络 Precision 为 93.93% 、Recall 7j 92.0896, F, 
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2: 该 图 基于 自然 资源 部 标准 地 图 服务 网 站 下 载 的 审 图 号 为 云 S 
(2021) 186 号 标准 地 图 制作 , 底 图 无 修改 。 
图 7 元 阳 县 梯田 在 不 同 高 程 的 空间 分 布 
Fig. 7 The spatial distribution of terraced fields in Yuanyang 


county across different elevations 


#5 元 阳 县 不 同 海拔 等 级 下 梯田 的 面积 及 占 比 
Table 5 The area and proportion of terraced fields in Yuanyang 


county at different altitude levels 


海拔 /m 面积 /hm 占 比 /% 
<500 N/A N/A 
500~1 000 775.72 4.98 
1 000~1 500 10 825.54 69.57 
1 500~2 000 3 959.91 25.45 
2 000~2 500 N/A N/A 
>2 500 N/A N/A 


注 : N/A 表示 无 数据 。 

评分 为 93.17%、IoU 为 83.21%。 相 比 于 原始 Deep- 
Lab v3+ 网 络 ，4 个 指标 分 别提 升 4.62%、2.61%、 
3.81% 和 2.81%。 与 PSPNet 和 UNet 相 比 ，Precision 
分 别提 高 7.72% 和 3.49%; Recall 分 别提 高 8.01% 和 
1.59%; F,Score 分 别提 高 7.96% 和 2.71%; IoU 分 
别提 高 4.73% All 3.52% 。 

表 6 元 阳 县 梯田 识别 结果 的 精度 对 比 


Table 6 Comparison of the accuracy of the identification results 


of terraced fields in Yuanyang county 


方法 Precision/% Recall/% F,-Score/?6 IoU/% 

PSPNet 86.21 84.07 85.21 79.20 

UNet 90.44 90.49 90.46 80.41 
DeepLab v3+ 89.31 89.47 89.39 81.12 
Improved DeepLab v3+ 93.93 92.08 93.17 83.93 
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但 本 研究 的 方法 对 梯田 提取 结果 优 于 其 他 模型 。 其 
中 ，PSPNet 网 络 提取 结果 存在 大 量 粘 连 现象 ， 对 
于 梯田 内 部 的 小 面积 非 梯田 区 域 不 能 有 效 提取 。 
UNet 和 DeepLab v3+ 在 提取 结果 方面 粘连 现象 得 到 
显著 改善 ， 梯 田 的 整体 提取 效果 更 准确 。DeepLab 
v3+ 虽 然 更 好 地 关注 不 同位 置 的 梯田 特征 ， 但 由 于 
对 局 部 特征 的 过 度 关 注 ， 导 致 在 边缘 区 域 毛刺 现象 
变 得 更 明显 。 相 比 之 下 ， 改 进 后 的 DeepLab v3+ 网 
络 改 善 了 粘连 问题 的 同时 保持 边缘 的 清晰 性 ， 没 有 
引入 边界 毛刺 。 

表 7 统 计 了 实验 中 对 比 算法 模型 的 参数 量 (Pa- 
rameters) ， 浮 点 运算 数 (Floating Point Operations, 
FLOPs) 和 取得 最 优 模型 所 经 历 的 轮 数 (Optimal 
Model Epoch, OME)。 通 过 比较 可 以 得 出 以 下 结论 : 
首先 ， 改 进 的 DeepLab v3+ 网 络 的 参数 量 为 8 M, 
其 参数 量 仅 为 UNet 网 络 的 28.6%，DeepLab v3+ 的 
19.5%。 其 次 ， 在 浮 点 运算 数 方面 ， 改 进 的 Deep- 
Lab v3+ 网 络 相 对 于 UNet 和 DeepLab v3+ 来 说 ， 有 具 
有 更 小 的 FLOPs 数值 。 这 意味 着 改进 的 DeepLab 
v3+ 网 络 在 模型 的 复杂 度 上 明显 降低 ， 这 对 于 实际 
应 用 中 的 计算 资源 要 求 更 为 友好 。 同 时 ， 也 反映 在 
取得 最 优 模型 所 需 的 Epoch 数 上 ， 改 进 的 DeepLab 
v3+ 网 络 仅 需 要 108 轮 ， 而 UNet 和 DeepLab v3+ 分 
别 需要 115 轮 和 128 轮 ， 这 表明 改进 的 模型 在 训练 
过 程 中 更 为 高 效 。 与 轻 量 级 PSPNet 相 比 ， 改 进 的 
DeepLab v3+ 网 络 在 表 7 中 的 3 个 指标 并 未 显示 出 明 
显 的 优势 。 然 而 ， 通 过 综合 上 文 的 精度 分 析 可 得 
知 ， 改 进 的 DeepLab v3+ 网 络 整体 上 表现 出 绝对 的 
优势 。 在 实际 场景 中 ， 模 型 参数 量 和 浮 点 运算 数 并 
不 是 影响 模型 性 能 的 唯一 因素 ， 而 网 络 结构 和 训练 
策略 等 因素 也 在 综合 性 能 上 起 到 了 关键 作用 。 

4 ”讨论 与 结论 
4.1 讨论 

在 梯田 语义 分 割 任务 中 ，UNet 模 型 结构 简单 ， 
利用 跳跃 连接 有 助 于 多 分 辩 率 特征 的 融合 ， 在 数据 
量 较 小 的 情况 能 取得 不 错 的 效果 中。 但 由 于 固定 
的 感受 野 ， 使 其 在 面临 复杂 的 地 物 特征 时 ， 细 节 特 
征 提 取 不 完整 。 相 较 于 UNet 和 DeepLab v3+ 模 型 ， 
PSPNet 可 以 认为 是 轻 量 级 语义 分 割 模型 汪 ， 但 随 
着 卷 积 深度 的 增加 ， 模 型 可 能 达到 性 能 瓶颈 ， 难 以 
进一步 提高 分 割 精度 。DeepLab v3+ 模 型 引入 了 
ASPP 模 块 ， 用 于 同时 捕获 不 同 尺 度 的 上 下 文 信息 ， 
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图 8 不 同 算 法 提取 结果 的 局 部 细节 对 比 


Fig. 8 Comparison of local details in extraction results obtained using different algorithms 


A7 四 种 算法 的 分 割 效 率 对 比 
Table 7 Comparison of segmentation efficiency among 


four algorithms 


方法 Parameters/M ^ FLOPs OME/epoch 
PSPNet 3 8.2 10? 92 
UNet 28 1.8x 10? 115 
DeepLab v3+ 4l 1.9x 10? 128 
Improved DeepLab v3+ 8 3.5 X 10" 108 


A BNF E X H BRE BE A EHI BE 7. HT 
田 在 空间 上 具有 多 尺度 特征 ， 而 DeepLab v3+ HY 
能 够 更 全 面 地 理解 梯田 图 像 中 的 细节 和 结构 。 然 
而 ，DeepLab v3+ 模 型 相对 较 大 参数 量 和 较 高 计算 
复杂 上 度 成 为 在 实际 应 用 中 的 一 项 挑战 ， 使 得 在 资源 
受 限 的 环境 中 难以 高 效 地 部 署 和 运行 该 模型 。 轻 量 
化 DeepLab v3+ 模 型 成 为 当前 深度 学 习 人 研究 中 的 一 
个 重要 方向 ， 以 确保 模型 在 轻 量 化 的 同时 仍然 能 够 
有 效 地 应 对 梯田 图 像 等 复杂 场景 的 分 割 任务 。 

模型 提取 的 精度 除了 受到 模型 结构 的 影响 之 
外 ， 还 包括 研究 对 象 、 数 据 集 的 处 理 等 。 本 研究 采 
用 了 休 耕 时 期 的 GEF-6 梯 田 影 像 作为 数据 源 ， 并 选 


择 NirRG 波 段 组 合 进 行 模型 训练 ， 在 特定 场景 任务 
中 取得 了 较 高 的 精度 。 然 而 ， 这 些 措施 也 存在 一 些 
局 限 性 。 首 先 ， 梯田 会 随 着 种 植 作物 的 生长 状态 具 
有 明显 的 时 序 特 征 。 单 一 时 节 训练 的 模型 可 能 无 法 
IRIE AT FERAE E, de Ob ep A ARE ae 
的 有 效 捕 提 能 力 。 其 次 ， 实 验 采 用 了 NirRG 波 段 组 
合 ， 保 证 了 提取 精度 和 梯田 完整 性 。 然 而 ， 获 取 具 
有 近 红 外 波段 的 高 分 辩 率 影像 并 非 易 事 ， 实 际 应 用 
中 仅 有 RGB 波段 的 高 分 辩 率 影像 更 为 常见 。 这 使 
得 本 研究 所 训练 的 模型 在 缺乏 NIR 波段 信息 的 情况 
下 适用 性 显著 降低 ， 从 而 限制 了 其 在 更 广泛 场景 中 
的 应 用 潜力 。 
4.2 结论 

本 研究 提出 了 一 种 改进 的 DeepLab v3+ 模 型 ， 
将 骨干 网 络 蔡 换 为 轻 量 级 网 络 Mobilenet v2。 同时 
再 引入 MSFEF 模 块 替换 原来 的 ASPP 模 块 ， 将 CA 机 
制 同时 运用 于 浅 层 特征 和 深层 特征 ， 以 加 强 网 络 对 
空间 位 置 的 学 习 。 以 云南 省 红河 哈尼 族 苏 族 自治 州 
元 阳 县 为 研究 区 ， 进 行 了 梯田 提取 的 县 域 研究 ， 取 
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得 较为 理想 的 识别 结果 。 主 要 结论 如 下 : 


S 


1) 近 红 外 波段 对 于 模型 学 习 梯 田 特征 具有 明 


的 促进 作用 ， 经 过 波段 组 合 对 比 发 现 ，NirRG 波 


段 组 合 下 ,梯田 的 整体 识别 效果 和 精度 指标 最 高 。 


比 ， 


2) 与 PSPNet、UNet 和 原始 的 DeepLab v3+ 相 
本 研究 提出 的 模型 在 梯田 数据 集 上 具有 更 高 的 


精度 和 更 好 的 效果 。 模 型 总 参数 量 、 浮 点 运算 数 和 
取得 最 优 模型 所 经 历 的 轮 数 这 三 个 分 割 效率 的 指标 
方面 ， 改 进 后 的 DeepLab v3 模型 较 UNet 和 原始 的 
DeepLab v3+ 有 更 优 的 效率 。 


利益 冲突 声明 : 本 研究 不 存在 研究 者 以 及 与 公开 
研究 成 果 有 关 的 利益 冲突 。 
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Abstract: 


[Objective] The accurate estimation of terraced field areas is crucial for addressing issues such as slope erosion control, water reten- 


tion, soil conservation, and increasing food production. The use of high-resolution remote sensing imagery for terraced field informa- 
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tion extraction holds significant importance in these aspects. However, as imaging sensor technologies continue to advance, traditional 
methods focusing on shallow features may no longer be sufficient for precise and efficient extraction in complex terrains and environ- 
ments. Deep learning techniques offer a promising solution for accurately extracting terraced field areas from high-resolution remote 
sensing imagery. By utilizing these advanced algorithms, detailed terraced field characteristics with higher levels of automation can be 
better identified and analyzed. The aim of this research is to explore a proper deep learning algorithm for accurate terraced field area 
extraction in high-resolution remote sensing imagery. 

[Methods] Firstly, a terraced dataset was created using high-resolution remote sensing images captured by the Gaofen-6 satellite dur- 
ing fallow periods. The dataset construction process involved data preprocessing, sample annotation, sample cropping, and dataset par- 
titioning with training set augmentation. To ensure a comprehensive representation of terraced field morphologies, 14 typical regions 
were selected as training areas based on the topographical distribution characteristics of Yuanyang county. To address misclassifica- 
tions near image edges caused by limited contextual information, a sliding window approach with a size of 256 pixels and a stride of 
192 pixels in each direction was utilized to vary the positions of terraced fields in the images. Additionally, geometric augmentation 
techniques were applied to both images and labels to enhance data diversity, resulting in a high-resolution terraced remote sensing da- 
taset. Secondly, an improved DeepLab v3+ model was proposed. In the encoder section, a lightweight MobileNet v2 was utilized in- 
stead of Xception as the backbone network for the semantic segmentation model. Two shallow features from the 4th and 7th layers of 
the MobileNet v2 network were extracted to capture relevant information. To address the need for local details and global context si- 
multaneously, the multi-scale feature fusion (MSFF) module was employed to replace the atrous spatial pyramid pooling (ASPP) mod- 
ule. The MSFF module utilized a series of dilated convolutions with increasing dilation rates to handle information loss. Furthermore, 
a coordinate attention mechanism was applied to both shallow and deep features to enhance the network's understanding of targets. 
This design aimed to lightweight the DeepLab v3+ model while maintaining segmentation accuracy, thus improving its efficiency for 
practical applications. 

[Results and Discussions] The research findings reveal the following key points: (1) The model trained using a combination of near-in- 
frared, red, and green (NirRG) bands demonstrated the optimal overall performance, achieving precision, recall, F,-Score, and inter- 
section over union (IoU) values of 90.11%, 90.22%, 90.17% and 82.10%, respectively. The classification results indicated higher accu- 
racy and fewer discrepancies, with an error in reference area of only 12 hm’. (2) Spatial distribution patterns of terraced fields in Yuan- 
yang county were identified through the deep learning model. The majority of terraced fields were found within the slope range of 8? 
to 25°, covering 84.97% of the total terraced area. Additionally, there was a noticeable concentration of terraced fields within the alti- 
tude range of 1 000 m to 2 000 m, accounting for 95.02% of the total terraced area. (3) A comparison with the original DeepLab v3+ 
network showed that the improved DeepLab v3+ model exhibited enhancements in terms of precision, recall, F,-Score, and IoU by 
4.62%, 2.61%, 3.81% and 2.81%, respectively. Furthermore, the improved DeepLab v3+ outperformed UNet and the original Deep- 
Lab v3+ in terms of parameter count and floating-point operations. Its parameter count was only 28.6% of UNet and 19.5% of the 
original DeepLab v3+, while the floating-point operations were only 1/5 of UNet and DeepLab v3+. This not only improved computa- 
tional efficiency but also made the enhanced model more suitable for resource-limited or computationally less powerful environments. 
The lightweighting of the DeepLab v3- network led to improvements in accuracy and speed. However, the slection of the NirGB band 
combination during fallow periods significantly impacted the model's generalization ability. 

[Conclusions] The research findings highlights the significant contribution of the near-infrared (NIR) band in enhancing the model's 
ability to learn terraced field features. Comparing different band combinations, it was evident that the NirRG combination resulted in 
the highest overall recognition performance and precision metrics for terraced fields. In contrast to PSPNet, UNet, and the original 
DeepLab v3+, the proposed model showcased superior accuracy and performance on the terraced field dataset. Noteworthy improve- 
ments were observed in the total parameter count, floating-point operations, and the Epoch that led to optimal model performance, out- 
performing UNet and DeepLab v3+. This study underscores the heightened accuracy of deep learning in identifying terraced fields 
from high-resolution remote sensing imagery, providing valuable insights for enhanced monitoring and management of terraced land- 
scapes. 
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